Open Research Data: ein erster Blick auf die aktuelle Praxis

15.08.2024

Vom SNF geförderte Forschende sollten ihre Datensätze in öffentlichen Archiven ablegen. Oft wird der SNF allerdings gar nicht informiert, ob die Vorgabe eingehalten wurde. Von den gemeldeten Datensätzen erfüllen die meisten die FAIR-Prinzipien.

Seitdem der SNF 2017 die Strategie der Open Research Data (ORD) eingeführt hat, verlangt er bei den meisten Förderinstrumenten einen Datenmanagement-Plan (DMP). Die aus der geförderten Forschung resultierenden Daten sollen in Archiven abgelegt werden, welche die FAIR-Prinzipien für die Offenlegung von Daten erfüllen.

Was ist ein Datenmanagement-Plan?

Ziel des Datenmanagement-Plans (DMP) ist es, den vorgesehenen Lebenszyklus der aus einem Förderbeitrag resultierenden Daten zu definieren. Der Plan legt dar, wie Daten generiert, gesammelt, dokumentiert, publiziert und archiviert werden. Der SNF stellt den Forschenden eine Vorlage zur Verfügung, mit der sie ihren DMP erstellen können. Weitere Informationen liefern die DMP-Leitlinien für Forschende.

Was sind die FAIR-Prinzipien?

Die FAIR-Prinzipien haben zum Ziel, dass Datensätze auffindbar (findable), zugänglich (accessible), kompatibel (interoperable) und wiederverwendbar (re-usable) sind. Der SNF verlangt, dass Daten ohne Einschränkung wiederverwendet werden können, sofern keine rechtlichen, ethischen, urheberrechtlichen oder sonstigen Gründe dagegen sprechen. Offene Forschungsdaten und die FAIR-Prinzipien werden vom SNF als wichtig erachtet, da sie zur Wirkung, Transparenz und Reproduzierbarkeit der Forschung beitragen. Genauere Informationen dazu befinden sich auf der SNF-Website. Als Hilfe für die Forschenden beim Übergang zu FAIR-Forschungsdaten hat der SNF Mindestkriterien definiert, denen Datenarchive entsprechen müssen, damit sie die FAIR-Prinzipien erfüllen.

Der Anteil der Beitragsempfangenden, die dem SNF nach Abschluss ihres Projekts mindestens einen Datensatz als Teil ihrer Outputdaten melden (siehe Kasten), wächst bei allen Förderinstrumenten und Forschungsbereichen kontinuierlich1.

Steigender Anteil an Beitragsempfangenden, die einen Datensatz melden

Das Jahr bezieht sich auf das Enddatum des Förderbeitrags. Anzahl der Förderbeiträge pro Jahr in diesem Datensatz: Jahr 2017/2018: 2694, Jahr 2019: 1975, Jahr 2020: 1523, Jahr 2021: 2050, Jahr 2022: 1781, Jahr 2023: 1548. Das Jahr 2017 enthält nur Förderbeiträge, die nach der Einführung der ORD-Strategie (Oktober 2017) endeten, und ist daher mit 2018 zusammengefasst

Steigender Anteil an Beitragsempfangenden, die einen Datensatz melden

Das Jahr bezieht sich auf das Enddatum des Förderbeitrags. Anzahl der Förderbeiträge pro Jahr in diesem Datensatz: Jahre 2017/2018: 2694, Jahre 2019: 1975, Jahre 2020: 1523, Jahre 2021: 2050, Jahre 2022: 1781, Jahre 2023: 1548. Das Jahr 2017 enthält nur Förderbeiträge, die nach der Einführung der ORD-Strategie (Oktober 2017) endeten, und ist daher mit 2018 zusammengefasst

Die stärkste Zunahme (+26 Prozentpunkte seit 2017/18) war bei den Projekten im Bereich Mathematik, Informatik, Naturwissenschaft, Technik (MINT) zu verzeichnen. Auch in den Lebenswissenschaften (LW) ist die Zahl der gemeldeten Datensätze seit 2017/18 gestiegen (+17 Prozentpunkte). In den Geistes- und Sozialwissenschaften (GSW) wuchs die Zahl zwischen 2017/18 und 2021 (+9 Prozentpunkte), seither hat sich der Aufwärtstrend jedoch abgeflacht (+2 Prozentpunkte zwischen 2021 und 2023). In den GSW und vor allem in den Sozialwissenschaften betrifft ein Teil der Projekte sensible Daten; zudem sind die Publikationszyklen tendenziell länger.

Gesuchstellende, deren Beiträge 2023 ausliefen, mussten vor Projektbeginn einen DMP vorlegen. Gemäss den DMP bestand in vielen Fällen die Absicht, Datensätze in (häufig öffentlichen) FAIR-Archiven abzulegen (siehe auch den ersten Bericht des SNF über die Einhaltung der ORD-Vorgaben). Gemäss unserer Analyse wurde jedoch für lediglich 23% oder 363 dieser Beiträge (von insgesamt 1548 auslaufenden Beiträgen im Jahr 2023) mindestens ein Datensatz gemeldet. Beitragsempfangende, die tatsächlich Datensätze veröffentlichten, stellten durchschnittlich 3,7 Datensätze zur Verfügung, was insgesamt 1344 gemeldete Datensätze ergab.

Ein Vergleich zwischen Open Research Data (ORD) und Open-Access-Publikationen zeigt, dass die meisten Beitragsempfangenden wissenschaftliche Publikationen meldeten, die überwiegend öffentlich zugänglich waren. Häufig stützen sich solche Publikationen auf Datensätze, die als Forschungsergebnisse gemeldet werden sollten. Deshalb stellt sich die Frage, weshalb der ORD-Anteil lediglich 23% beträgt. Die Gründe für diesen geringen Anteil sind vielfältig und nicht immer ganz klar:

Die vorliegende Analyse zeigt, dass der SNF weiterhin die Forschenden für das Thema offene Forschungsdaten sensibilisieren muss. Ein Schritt besteht darin, dieses ORD-Monitoring künftig regelmässig durchzuführen. Indem der SNF die Ergebnisse analysiert und veröffentlicht, will er aufzeigen, wie wichtig gute ORD-Praktiken sind.

Im internationalen Vergleich deckt sich die Beobachtung, dass nur ein kleiner Teil der Beitragsempfangenden mindestens einen Datensatz meldet, mit der Studie des PLOS-Verlags. Der Studie zufolge bezogen sich rund 28% der PLOS-Forschungsartikel auf einen in einem Datenarchiv öffentlich zugänglichen Datensatz. Bei auf PuBMed Central publizierten öffentlichen Forschungsartikeln waren es 15%. Die Ergebnisse stehen auch in Einklang mit dem European Research Data Landscape Survey: Gemäss dieser Umfrage veröffentlichten 22% der Befragten während ihrer aktuellen oder letzten Forschungstätigkeit Daten in Archiven. Somit bewegen sich die ORD-Anteile bei anderen Organisationen auf ähnlichem Niveau wie beim SNF. Es dürfte deshalb auch strukturelle Gründe für den geringen Anteil von gemeldeten Datensätzen bei SNF-Förderbeiträgen geben.

Das Ergebnis des vorliegenden Monitorings ist Ausdruck eines systembedingten Problems: Offene Forschungsdaten sind in der Wissenschaft noch nicht so etabliert wie frei zugängliche Publikationen. Die Zahlen zeigen jedoch einen ansteigenden Trend. Mit seiner ORD-Strategie unterstützt der SNF diese Entwicklung und setzt ein Zeichen für mehr Transparenz in der Wissenschaft.

Gewählte Datenarchive meistens FAIR

Wie die nächste Grafik veranschaulicht, wählen die Forschenden für die Bereitstellung von Datensätzen in den meisten Fällen digitale Datensammlungen, die den FAIR-Prinzipien entsprechen. FAIR bedeutet allerdings nicht zwingend auch frei zugänglich. Dies hängt manchmal, aber nicht immer mit legitimen Datenschutzbestimmungen zusammen. Gemäss dieser ersten Analyse konnte nur rund die Hälfte der gemeldeten Datensätze als offen identifiziert werden, während dies bei der anderen Hälfte unklar war (siehe Kasten «Wie sammelt der SNF die Outputdaten?» am Ende des Artikels).

Steigender Anteil der gemeldeten FAIR-Datensätze

Das Jahr bezieht sich auf das Enddatum des Förderbeitrags. Die Analyse basiert auf einem manuell erstellten Datensatz, der keine Daten für 2023 enthält. Das Jahr 2017 enthält nur Förderbeiträge, die nach der Einführung der ORD-Strategie (Oktober 2017) endeten, und ist daher mit 2018 zusammengefasst

Steigender Anteil der gemeldeten FAIR-Datensätze

Das Jahr bezieht sich auf das Enddatum des Förderbeitrags. Die Analyse basiert auf einem manuell erstellten Datensatz, der keine Daten für 2023 enthält. Das Jahr 2017 enthält nur Förderbeiträge, die nach der Einführung der ORD-Strategie (Oktober 2017) endeten, und ist daher mit 2018 zusammengefasst

Bevorzugtes Datenarchiv ist Zenodo

Seit 2017 wird Zenodo immer beliebter. Innert vier Jahren wurde es zum Archiv der Wahl für 40% der gemeldeten Datensätze. Abgesehen von einigen wenigen Datenarchiven (v.a. Zenodo und ETH Research Collections) werden die Archive je nach Forschungsbereich sehr unterschiedlich genutzt (Open Science Framework und SwissUbase von den GSW und Gene Expression Omnibus von den LW). Diese Fragmentierung widerspiegelt die grosse Vielfalt der Daten in den vom SNF finanzierten Projekten.

Die 20 am häufigsten gemeldeten Datenarchive nach Nutzungsanteil (%) für drei Zeiträume

Das Jahr bezieht sich auf das Enddatum des Beitrags. Die in der Abbildung dargestellte Rangfolge ist relativ und gibt nur die Position des Archivs in der Rangliste an. Die Beliebtheit der einzelnen Datenarchive ist als Gesamtzahl und in Prozent neben dem Namen des jeweiligen Archivs angegeben. Die Analyse basiert auf einem manuell erstellten Datensatz, der keine Daten für 2023 enthält.

Die 20 am häufigsten gemeldeten Datenarchive nach Nutzungsanteil (%) für drei Zeiträume

Das Jahr bezieht sich auf das Enddatum des Beitrags. Die in der Abbildung dargestellte Rangfolge ist relativ und gibt nur die Position des Archivs in der Rangliste an. Die Beliebtheit der einzelnen Datenarchive ist als Gesamtzahl und in Prozent neben dem Namen des jeweiligen Archivs angegeben. Die Analyse basiert auf einem manuell erstellten Datensatz, der keine Daten für 2023 enthält.

Wachsendes Bewusstsein für Datensätze

Datensätze werden also immer häufiger gemeldet und auf Archiven, die den FAIR-Prinzipien entsprechen, zugänglich gemacht. Dies weist auf ein wachsendes Bewusstsein dafür hin, dass sich der Forschungsoutput nicht auf wissenschaftliche Artikel beschränkt und dass die Bereitstellung von (Meta-)Daten wichtige und wertvolle Informationen liefert. Während jedoch die meisten wissenschaftlichen Publikationen von SNF-Beitragsempfangenden öffentlich zugänglich sind, besteht bei der Offenlegung und Meldung von Datensätzen noch beträchtliches Verbesserungspotenzial. Das derzeitige System zur Würdigung wissenschaftlicher Leistungen ist immer noch zu sehr auf die Veröffentlichung von Publikationen ohne die zugrunde liegenden Datensätze ausgerichtet. Mit der Nationalen Strategie für Open Research Data und dem dazugehörigen Aktionsplan tragen der SNF und seine Partner im Forschungsbereich dazu bei, dass sich die Praxis der offenen Wissenschaft durchsetzt und Datensätze als wichtige Forschungsergebnisse anerkannt werden.

Wie sammelt der SNF die Outputdaten?

Seit 2011 werden die Beitragsempfangenden aufgefordert, dem SNF ihren Forschungsoutput zu melden (2018 wurde die Kategorie «Datensatz» hinzugefügt). Die Beitragsempfangenden können die Outputdaten jederzeit während oder nach der Beitragsdauer eingeben. Sie werden jeweils bei der Einreichung eines wissenschaftlichen Berichts (Jahres-, Zwischen- oder Schlussbericht) sowie eineinhalb Jahre nach Beitragsende daran erinnert, dass sie Outputdaten einreichen sollten.

Die in dieser Datengeschichte verwendeten Daten stammen aus den «Outputdaten: Datensets», die im Bereich Datensätze des SNF-Datenportals verfügbar sind. Berücksichtigt wurden alle Förderinstrumente (ausser Infrastrukturen und Wissenschaftskommunikation).

In die Berechnung des Anteils der Beitragsempfangenden, die einen Datensatz meldeten, flossen Förderbeiträge ein, die zwischen Oktober 2017 und Dezember 2023 endeten. Für die letzten beiden Grafiken wurden die Daten aus den «Outputdaten: Datensets» Mitte März 2023 erhoben. Eingeflossen sind Förderbeiträge, die zwischen Oktober 2017 und Dezember 2022 endeten.

Die Daten wurden manuell bearbeitet, um die FAIRness der Datenarchive im Sinne der SNF-Leitlinien zu überprüfen. Diese FAIRness entwickelt sich im Laufe der Zeit, und es ist möglich, dass die Einhaltung der vom SNF festgelegten ORD-Kriterien bei den in dieser Studie untersuchten Datenarchiven nicht mehr gleich ist wie zum Zeitpunkt der Studie.

Die vom SNF geförderten Forschenden werden aufgefordert, Datensätze zu veröffentlichen, auf denen ihre Publikationen beruhen. Die Daten sollten öffentlich zugänglich sein, sofern keine rechtlichen, ethischen, urheberrechtlichen oder sonstigen Gründe dagegen sprechen. Die Offenheit eines Datensatzes mit DOI-Nummer wurde anhand von Metadaten von DataCite bestimmt. Ein Datensatz wurde als öffentlich zugänglich betrachtet, wenn die Metadaten darauf hinwiesen, dass der Datensatz öffentlich oder mit einer öffentlichen Lizenz versehen war oder eine der folgenden Lizenzen hatte:

Bei Datensätzen ohne Metadaten zur Offenheit oder zu einer allfälligen Lizenz wurde angenommen, dass diese Angaben nicht bekannt sind.

Daten, Text und Code dieser Datengeschichte sind auf Github verfügbar und auf Zenodo archiviert.
DOI: 10.46446/datastory.open-research-data-2023

Fußnoten

  1. Förderbeiträge für Infrastrukturen und Wissenschaftskommunikation sind von dieser Analyse ausgenommen.↩︎